1
統計的推論における最適性の定義
MATH003Lesson 8
00:00
統計データの広大な荒野の中で、我々は真のパラメータ $\psi(\theta)$ を求めるハンターです。しかし、どの矢(推定量)が最良かをどう判断すればよいのでしょうか? 最適性 最適性は曖昧な感覚ではありません。それは損失を最小化するための数学的な芸術です。『最も良い』推定量を見つけるには、平均二乗誤差(MSE)に目を向けます。この値は、2つの基本的な力の間にある緊張関係に美しく分解されます: 分散 そして バイアス

ゴールドスタンダードの定義:MSE

私たちの推定値 $T$ が真の値 $\psi(\theta)$ からどれだけ離れているかを測るために、 平均二乗誤差 (定義6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

これは、推定量と目標との間の平均二乗距離です。完璧な推定量ならMSEはゼロになりますが、ランダムノイズの世界では、それを最小化することを目指します。

定理8.1.1:誤差の構造

なぜ推定量は失敗するのでしょうか?定理8.1.1がその設計図を示します。$T$ の2次のモーメントが有限である場合、任意の定数 $c$ に対する誤差は次のように表されます:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

この公式は、総二乗誤差が最小になるのは 唯一 私たちが $c = E(T)$ と選択したときのみであることを明らかにしています。推論の文脈では、$c = \psi(\theta)$ と設定し、有名な分解式が得られます:

MSE = 分散 + バイアス²

精度と正確さのトレードオフ

品質管理ラボに2つの天秤があると想像してください:

  • 精密な遺物: 毎回同じ重量を示す(低分散)ですが、2グラムのずれがあります(高バイアス)。
  • 不規則な賢者: 平均的には正しい(バイアスゼロ)ですが、測定間で大きく振動します(高分散)。

定理8.1.1により、どちらの天秤がより低い総誤差を提供するかを正確に計算できます。多くの場合、ノイズ(分散)を大幅に削減できるならば、わずかな系統的ずれ(バイアス)を受け入れる価値があります。

例8.1.1:十分性と情報

最適性は 情報に結びついています。サンプル空間 $S = \{1, 2, 3, 4\}$ を考えます。もしパラメータのすべての可能性において、結果2、3、4が等確率であるならば、それらは 同じ尤度を持ちます。これらをまとめて、最適な推論能力を失わずに十分統計量 $U$ を定義できます。シミュレーションで示されているように、$L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$ であれば、最適な推定量はこれらを一つの情報豊富な事象として扱います。

🎯 核心原則
推定量が期待損失を最小化するとき、それが最適です。二乗誤差損失の場合、分散とバイアス²の和が絶対最小となる点を見つけることを意味します。